[论文推荐|AAAI 2021]面向真实场景的视觉文档信息抽取：新数据集和新解决方案

Original 汪嘉鹏 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI 2021 录用的论文“Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution”的主要工作。本文面向真实场景中的可视信息抽取应用进行研究，提出了一个具有挑战性且同时兼顾光学字符识别（Optical Character Recognition, OCR）与可视信息抽取（Visual Information Extraction, VIE）任务的数据集（称为EPHOIE），和一个鲁棒的可进行端到端联合优化的信息抽取模型（称为VIES）。

一、研究背景

近年来，可视信息抽取技术受到越发广泛的关注。其在如文档理解、信息检索和智能教育等诸多时下热门的任务场景中得到广泛应用。现有的可视信息抽取方法主要分为两个独立的阶段：1）文本检测与识别；2）信息抽取。前者用来得到图片中所包含的全部文本的位置与内容，而后者在前者提供的结果上，进一步提取出特定类别的关键信息。然而，现存方法的局限性主要在于：1）尽管文本检测与识别模型已经学习到有效的特征表示，但在信息抽取部分，这些特征被直接丢弃，而又从OCR结果中重新生成。这导致了计算资源的浪费，并且被丢弃的特征可能比重新学习到的更有效；2）模块间的独立性导致他们的训练过程没有交互，这一方面限制了信息抽取模块所能获得的有用信息量，另一方面也使得文本检测与识别模块无法根据最终目标进行自适应的优化。

随着深度学习方法的蓬勃发展，针对某一特定领域所组建的全面且公开的数据集基准是激励未来工作的重要前提。在VIE领域，SROIE[1]是时下应用最广泛的数据集基准，它同时囊括了OCR与VIE任务，且面向印刷体英文的扫描票据场景。然而，它无法充分满足现实应用中对于复杂版面、手写体文字以及中文文档的需求。

二、数据集（EPHOIE）简述

本文提出了一个称为EPHOIE（Examination Paper Head dataset for OCR and Information Extraction）的新数据集基准，是第一个同时兼顾OCR与VIE任务的中文数据集，旨在进一步推动该领域的发展。它同时囊括手写体和印刷体字符，共包含1494张图像，且被划分为1183张图片的训练集和311张图片的测试集。数据集中所有的图片都是从真实的考试试卷中收集扫描得到的不同学校、不同板式的试卷头信息。一些图片如图1所示。

图1 EPHOIE数据集中的一些图像展示

表1 EPHOIE与SROIE数据集的对比

文中将EPHOIE数据集与目前应用最广泛的SROIE数据集进行了比较，结果如表1所示。

图2 EPHOIE数据集标注格式

图2展示了EPHOIE数据集的详细标注格式。由于该数据集中同时存在水平和任意四边形文本框，所以使用四个顶点表示。同时，文本内容以及对应的实体类别和键值对属性也进行了标注。‘Entity’字段中的数字字符串表示内容对应的实体，这种字符级细粒度的标注是为了应对单个文本段中存在多种实体的情况。

三、方法（VIES）简述

图3 本文方法整体框架图

本文提出的方法的总体框架如图3所示。它由一个共享主干网络和三个特定的子任务分支——文本检测、识别和信息抽取分支组成。给定一张文档图像，文本检测与识别分支不仅负责定位并识别图中包含的所有文本，同时还通过文中提出的视觉与语义协作机制（Vision And Semantics Coordination Mechanism，VCM and SCM）为后续网络提供丰富的视觉和语义特征。信息提取分支中提出的自适应特征融合模块（Adaptive Feature Fusion Module，AFFM）收集多模态的特征表示，并利用这些特征自适应地生成不同细粒度的融合信息。接下来将对各个子分支进行详细介绍。

1）文本检测分支

给定输入图像，本文首先使用共享主干网络提取高级特征表示X。然后，检测分支采用类似Mask R-CNN[2]的结构将X作为输入，并输出检测框B、置信度C以及为任意四边形框准备的掩码M：

此处，该工作提出了视觉协作机制（VCM），以此将丰富的视觉特征从检测分支送至信息抽取分支，同时也相对的提供更多有效监督信息以帮助检测分支的优化过程。VCM如下述公式及图4所示：

图4 视觉协作机制（VCM）

对于视觉富文档图像，视觉特征中集成了关键的视觉线索，例如形状，字体和颜色等等。信息抽取分支的梯度也可以帮助检测分支学习更泛化的有效表示。

2）文本识别分支

该工作采用了类似传统基于注意力机制的文本识别网络结构，并提出了语义协作机制（SCM）以建立识别分支与信息抽取分支间的双向语义信息流。本文将识别分支中的循环神经网络隐状态S作为每个字符的高级语义表示：

同时，该工作还进一步生成段级别语义特征来融合更全局的信息。它采用1维CNN网络通过字符语义嵌入得到文本段的整体语义表达，其过程如下述公式及图5所示：

图5 语义协作机制（SCM）

通过这种方式，识别分支所提取的字符级和片段级语义信息可以直接向后传递，而信息抽取分支所包含的更高级语义约束也可以反过来指导识别分支的训练过程。

3）信息抽取分支

在信息抽取模块，该工作首先通过检测到的文本框提取空间位置特征：

值得注意的是，本文根据识别出的字符串的长度将整个片段级别文本框沿最长边均匀地划分为多个单字符框，并以此利用上述提到的计算公式，可分别得到字符级别和片段级别的视觉和位置特征。

在得到来自多源的多细粒度特征表示后，本文提出自适应特征融合模块（AFFM）对信息执行进一步增强。AFFM由多头自注意力模块和线性变换层组成：

最后，本文将字符级和片段级融合特征拼接在一起，送入最后的序列标注模型。本文采用经典的双向长短时记忆网络（BiLSTM）与条件随机场层（CRF layer）结构，对识别模块得到的结果进行分类。

整个框架在训练时可以进行端到端的联合优化，信息抽取部分的梯度可以回传至整个网络。整体的损失函数即由各子分支的优化目标加权构成。

四、主要实验结果及可视化效果

表2 端到端联合优化策略消融实验结果

本文首先探究了其提出的端到端联合优化方式的有效性，实验结果如表2所示。端到端方法使模型在各子任务上的表现都有显著的提升。

表3 VCM与SCM结构消融实验结果

接着，该工作对比了VCM和SCM不同建模方式的区别，实验结果如表3所示。本文最终选用的方式可以充分地发挥端到端优化的效果。

表4 不同来源特征消融实验结果

最后，该工作同样探究了不同来源特征的影响，实验结果如表4所示。信息的模态多样性可以为模型效果带来进一步的提升。

表5 EPHOIE数据集实验结果

表6 SROIE数据集实验结果

表5和表6展示了部分当下最先进方法在EPHOIE数据集和SROIE数据集上的结果。可以看到，本文提出的VIES取得了最高的指标。

图6 EPHOIE数据集端到端结果的部分可视化

图6展示了一些在EPHOIE数据集上的可视化结果。不同颜色代表提取出的不同实体类别。

五、总结及讨论

本文针对现实应用场景提出了一个鲁棒的可视信息抽取系统（VIES）。该方法作为一个统一的端到端联合优化框架，可同时进行文本检测，识别和信息提取任务。此外，本文还提出了一个标注全面的数据集称为EPHOIE，这也是同时兼顾OCR和VIE任务的第一个中文数据集基准。实验表明该方法在端到端场景下显示出优越的性能，并旨在为未来的可视信息抽取工作带来更多的启发。

六、相关资源

论文及数据集地址：https://github.com/HCIILAB/EPHOIE

参考文献

[1] Huang Z, Chen K, HeJ, et al. ICDAR2019 competition on scanned receipt ocr and information extraction[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). 2019: 1516-1520.

[2] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//Proceedings of the IEEE international conference on computer vision (ICCV). 2017: 2961-2969.

原文作者：Jiapeng Wang, Chongyu Liu, Lianwen Jin, Guozhi Tang, Jiaxin Zhang, ShuaitaoZhang, Qianying Wang, Yaqiang Wu, Mingxiang Cai
撰稿：汪嘉鹏编排：高学

审校：连宙辉

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

扫描二维码，关注我们:D

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

[论文推荐|AAAI 2021]面向真实场景的视觉文档信息抽取：新数据集和新解决方案

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

万年县委书记毛奇案，又有新消息！

三联，刺痛了多少中国人

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

六大火药桶：世界种种动荡背后的历史逻辑

官媒消息！94.6元充100元话费，电费96.9充100元！招团长~

生成图片，分享到微信朋友圈

[论文推荐|AAAI 2021]面向真实场景的视觉文档信息抽取：新数据集和新解决方案

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣